【实战教程】python批量提取pdf文件中指定范围文字存储为txt文件

本文介绍如何使用Python从PDF文件中批量提取指定范围的文字,例如以‘第三节公司业务概要’和‘第四节管理层讨论与分析’作为边界,将内容保存为TXT文件。通过设置关键词,可以灵活调整提取范围,便于后续的文本分析。代码包含进度显示,可按需调整。遇到未成功提取的PDF,可能需要手动检查修复。提取后的TXT文件可用于进一步的词频统计等分析。
摘要由CSDN通过智能技术生成

解决问题:将一个文件夹里的所有上市公司年报的pdf文件利用开始和结尾关键字提取pdf文件指定范围的文本存储为txt文件,然后进行文本分析,文本分析的内容将放到下一个文章。

代码如下:先导入库,然后定义函数,定义函数部分不需要改动。

#导入所需的库
import os
import re
import pdfplumber

#从字符串中提取指定首尾的文字
def Get_text(start_str, end_str, source_str):
    start = source_str.find(start_str) #找到开始关键词对应的位置索引
    if start >= 0:
        start += len(start_str)
        end = source_str.find(end_str, start)#找到结束关键词对应的位置索引
        if end >= 0:
            return source_str[start:end].strip() #截取起始位置之间的字符


#定义写入txt的函数
def To_txt(filename, final_text):      #filename为写入文件的路径,data为要写入数据列表.
    file = open(filename + '.txt','a',encoding='utf8')
    file.write(filename + "\n")
    for i in range(len(final_text)):
        text = final_text[i]
        if i != len(final_text)-1:     #判断是否最后一个元素
            text
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值